Remote sensing images are useful for a wide variety of environmental and earth monitoring tasks, including tracking deforestation, illegal fishing, urban expansion, and natural disasters. The earth is extremely diverse -- the amount of potential tasks in remote sensing images is massive, and the sizes of features range from several kilometers to just tens of centimeters. However, creating generalizable computer vision methods is a challenge in part due to the lack of a large-scale dataset that captures these diverse features for many tasks. In this paper, we present Satlas, a remote sensing dataset and benchmark that is large in both breadth, featuring all of the aforementioned applications and more, as well as scale, comprising 290M labels under 137 categories and seven label modalities. We evaluate eight baselines and a proposed method on Satlas, and find that there is substantial room for improvement in addressing research challenges specific to remote sensing, including processing image time series that consist of images from very different types of sensors, and taking advantage of long-range spatial context. We also find that pre-training on Satlas substantially improves performance on downstream tasks with few labeled examples, increasing average accuracy by 16% over ImageNet and 5% over the next best baseline.
translated by 谷歌翻译
在本文中,我们提出了一种自我监督的学习程序,用于培训仅给出未标记的视频的强大多目标跟踪(MOT)模型。虽然已经在先前的单一物体跟踪中提出了几种自我监控学习信号,例如颜色传播和循环一致性,但这些信号不能直接应用于训练RNN模型,这是实现准确的MOT:它们产生堕落例如,始终匹配新检测以跟踪最接近初始检测的模型。我们提出了一种新的自我监控信号,我们称之为交叉输入一致性:通过隐藏每个输入中的序列的不同信息来构造两个不同的视频序列的两个不同输入。然后,我们通过在每个输入上独立地应用RNN模型来计算该序列的曲目,并在两个输入中培训模型以产生一致的轨道。我们评估了我们对MOT17和Kitti的无监督方法 - 显着,我们发现,尽管只有在未标记的视频上训练,但我们无人监督的方法优于过去1--2年来发布的四种监督方法,包括Tracktor ++,Famnet,GSM和MMMOT 。
translated by 谷歌翻译
不确定性量化是针对安全至关重要系统(例如医疗保健或自动驾驶汽车)的机器学习模型的关键组成部分。我们在元学习的背景下研究了这个问题,其目标是快速使预测因子适应新任务。特别是,我们提出了一种新颖的算法来构建\ emph {pac预测集},该算法通过一组标签捕获不确定性,该标签可以通过仅几个培训示例来适应新任务。这些预测设置满足了典型的PAC保证对元学习设置的扩展;特别是,PAC保证对未来任务的可能性很高。我们证明了在三个应用程序域中的四个数据集上的方法的功效:视觉域中的Mini-ImageNet和Cifar10-C,语言域中的很少的MINGREL,以及医疗域中的CDC Heart数据集。特别是,与其他满足此保证的基线相比,我们的预测设置满足PAC保证,同时具有较小的大小。
translated by 谷歌翻译
车辆到达时间预测已被广泛研究。随着物联网设备和深度学习技术的出现,估计的到达时间(ETA)已成为智能运输系统中的关键组成部分。尽管ETA存在许多工具,但由于特殊车辆的交通数据有限,ETA的特殊车辆(例如救护车,消防车等)仍然具有挑战性。现有作品使用一种模型用于所有类型的车辆,这可能会导致精确度较低。为了解决这个问题,作为该领域的第一个,我们为驾驶时间预测提出了一个深度转移学习框架TLETA。 TLETA构建了细胞时空知识网格,用于提取驾驶模式,并结合道路网络结构嵌入以构建ETA的深神经网络。 Tleta包含可转移的层,以支持不同类别的车辆之间的知识转移。重要的是,我们的转移模型仅训练最后一层以绘制转移的知识,从而大大减少了训练时间。实验研究表明,我们的模型以高精度预测旅行时间,并胜过许多最先进的方法。
translated by 谷歌翻译
离线目标条件的强化学习(GCRL)承诺以从纯粹的离线数据集实现各种目标的形式的通用技能学习。我们提出$ \ textbf {go} $ al-al-conditioned $ f $ - $ \ textbf {a} $ dvantage $ \ textbf {r} $ egression(gofar),这是一种基于新颖的回归gcrl gcrl algorithm,它源自州越来越多匹配的视角;关键的直觉是,可以将目标任务提出为守护动态的模仿者和直接传送到目标的专家代理之间的状态占用匹配问题。与先前的方法相反,Gofar不需要任何事后重新标签,并且对其价值和策略网络享有未融合的优化。这些独特的功能允许Gofar具有更好的离线性能和稳定性以及统计性能保证,这对于先前的方法无法实现。此外,我们证明了Gofar的训练目标可以重新使用,以从纯粹的离线源数据域数据中学习独立于代理的目标条件计划的计划者,这可以使零射击传输到新的目标域。通过广泛的实验,我们验证了Gofar在各种问题设置和任务中的有效性,显着超过了先前的先验。值得注意的是,在真正的机器人灵活性操纵任务上,虽然没有其他方法取得了有意义的进步,但Gofar获得了成功实现各种目标的复杂操纵行为。
translated by 谷歌翻译
长期的Horizo​​n机器人学习任务稀疏的奖励对当前的强化学习算法构成了重大挑战。使人类能够学习挑战的控制任务的关键功能是,他们经常获得专家干预,使他们能够在掌握低级控制动作之前了解任务的高级结构。我们为利用专家干预来解决长马增强学习任务的框架。我们考虑\ emph {选项模板},这是编码可以使用强化学习训练的潜在选项的规格。我们将专家干预提出,因为允许代理商在学习实施之前执行选项模板。这使他们能够使用选项,然后才能为学习成本昂贵的资源学习。我们在三个具有挑战性的强化学习问题上评估了我们的方法,这表明它的表现要优于最先进的方法。训练有素的代理商和我们的代码视频可以在以下网址找到:https://sites.google.com/view/stickymittens
translated by 谷歌翻译
我们提出了状态匹配的离线分布校正估计(SMODICE),这是一种新颖且基于多功能回归的离线模仿学习(IL)算法,该算法是通过状态占用匹配得出的。我们表明,SMODICE目标通过在表格MDP中的Fenchel二元性和一个分析解决方案的应用来接受一个简单的优化过程。不需要访问专家的行动,可以将Smodice有效地应用于三个离线IL设置:(i)模仿观察值(IFO),(ii)IFO具有动态或形态上不匹配的专家,以及(iii)基于示例的加固学习,这些学习我们表明可以将其公式为州占领的匹配问题。我们在GridWorld环境以及高维离线基准上广泛评估了Smodice。我们的结果表明,Smodice对于所有三个问题设置都有效,并且在前最新情况下均明显胜过。
translated by 谷歌翻译
决策者经常面对“许多匪徒”问题,其中必须同时学习相关但异构的情境匪徒实例。例如,大型零售商可能希望在许多商店中动态地学习产品需求,以解决定价或库存问题,这使得可以共同学习为服务类似客户的商店;或者,医院网络可能希望在许多提供商中动态学习患者风险以分配个性化干预措施,这使得可以为服务类似患者群体的医院共同学习。我们研究每个匪徒实例中未知参数可以分解为全局参数加上稀疏实例特定术语的设置。然后,我们提出了一种新颖的两级估计器,通过使用强大的统计数据组合(在类似的实例中学到)和套索回归(将结果进行替代),以样本有效的方式利用这种结构。我们在强盗算法中嵌入了这个估计器,并证明它在上下文维度下,它可以改善渐近遗憾界限。这种改进是数据较差的实例的指数。我们进一步展示了我们的结果如何依赖于强盗实例的基础网络结构。
translated by 谷歌翻译
除了最大化奖励目标之外,现实世界中的强化学习(RL)代理商必须满足安全限制。基于模型的RL算法占据了减少不安全的现实世界行动的承诺:它们可以合成使用来自学习模型的模拟样本遵守所有约束的策略。但是,即使对于预测满足所有约束的操作,甚至可能导致真实的结构违规。我们提出了保守和自适应惩罚(CAP),一种基于模型的安全RL框架,其通过捕获模型不确定性并自适应利用它来平衡奖励和成本目标来占潜在的建模错误。首先,CAP利用基于不确定性的惩罚来膨胀预测成本。从理论上讲,我们展示了满足这种保守成本约束的政策,也可以保证在真正的环境中是可行的。我们进一步表明,这保证了在RL培训期间所有中间解决方案的安全性。此外,在使用环境中使用真正的成本反馈,帽子在培训期间自适应地调整这种惩罚。我们在基于状态和基于图像的环境中,评估了基于模型的安全RL的保守和自适应惩罚方法。我们的结果表明了样品效率的大量收益,同时产生比现有安全RL算法更少的违规行为。代码可用:https://github.com/redrew/cap
translated by 谷歌翻译
工人花费大量时间学习如何做出正确的决定。但是,评估给定决策的功效可能很复杂 - 例如,决策结果通常是长期的,并且以复杂的方式与原始决策有关。令人惊讶的是,即使学习良好的决策策略很困难,它们通常可以以简单明了的形式表达。为了关注顺序决策,我们设计了一种新颖的机器学习算法,该算法能够从跟踪数据中提取“最佳实践”,并以可解释的“提示”的形式向人类传达其见解。我们的算法选择了最能弥合人类工人所采取的行动与最佳政策所采取的行动之间差距的提示,以说明行动对实现更高绩效的影响的方式。我们通过一系列参与者管理虚拟厨房的一系列随机对照实验来评估我们的方法。我们的实验表明,我们算法产生的提示可以显着改善相对于直观基准的人类性能。此外,我们讨论了许多经验见解,这些见解可以帮助告知针对人类界面的算法设计。例如,我们发现参与者不仅盲目地遵循我们的技巧的证据。相反,他们将他们与自己的经验结合在一起,以发现改善性能的其他策略。
translated by 谷歌翻译